1 



III! 



© BUNDESREPUBLIK 
DEUTSCHLAND 





||ftrsetzung der 

europaischen Patentschrift 

® EP 0573301 B1 



© Int. CI. 6 : 

6 10L5/06 

G 1C L 7/08 



® 



DE 693 24 629 T 2 



DEUTSCHES 
PATENT- UND 
MARKENAMT 



® Deutsches Aktenzeichen: 693 24 629.4 

(§) Europaisches Aktenzeichen: 93 304 340.8 

(§5) Europaischer Anmeldetag: 4. 6.93 

(§7) Erstveroffentlichung durch das EPA: 8. 12. 93 

® Veroffentlichungstag 

der Patenterteilung beim EPA: 28. 4. 99 
© Veroffentlichungstag im Patentblatt: 30. 9. 99 



O) 
CM 
CD 

CM 
00 

o> 

CO 



(§) Unionspriorrtat: 

922606 05.06.92 Fl 

® Patentinhaber: 

Nokia Mobile Phones Ltd., Salo, Fl 

@ Vertreten 

TER MEER STEINMEISTER & Partner GbR 
Patentanwatte, 81679 Munchen 

® Benannte Vertragstaaten: 
DE, FR, GB, SE 



® Erfmder: 

Ranta, Jukka Tapio, SF-24130 Salo, Fl 



@ Verfahren und Vorrichtung zur Spracherkennung 



CM 



0> 
CM 
CO 



Anmerkung: Innerhalb von neu"n Monaten nach der Bekanntmachung des Hinweises auf die 
Erteilung des europaischen Patents kann jedermann beim Europaischen Patentamt gegen 
das erteilte europaische Patent Einspruch einlegen. Der Einspruch ist schriftlich einzureichen 
und zu begrunden. Er gilt erst als eingelegt, wenn die Einspruchsgebuhr entrichtet worden 
ist (Art. 99 (1) Europaisches Patentubereinkommen). 



CM 
W 

o> 

CO 



Die Obersetzung ist gemaS Artikel II § 3 Abs. 1 1ntPatUG 1991 vom Patentinhaber eingereicht 
worden. Sie wurde v m Deutsch n Patent- und Markenamt inhaltlich nicht gepruft. 



BUNDESDRUCKEREI 08.99 902 339/I57/3C 



• • • • • • t» • • • • 

• •• • • • * • • 

^^^^^ ••••• • 

^^fe^^r •• ••• *^^^^»§5P 

Europaisches Patent 

rait der Europaischen Patentanmeldungsnr . 93 304 340.8 
NOKIA MOBILE PHONES LTD. 
Case: PAT 92 518 



Verfahren und Vorrichtung zur Spracherkennung * » 

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Spracherken- 
nung, insbesondere ein Verfahren und ein System fur ein durch Sprache steu- 
erbares Telefon, wobei ein Wert eines Bezugsworts durch eine Spracherken- 
nungseinrichtung auf Grundlage' eines von einem Benutzer gesprochenen Worts 
5 berechnet wird und eine Erkennungsauf losung auf Grundlage diesei; Werts 
erstellt wird. 

Telef one sind ira Allgemeinen mit einem Handapparat versehen, den dei: Benut- 
zer in der Hand halt, wahrend er spricht. Dies gilt auch fur den Fal_l, dass 

10 Funktelefone wie Mobiltelef one verwendet warden . Bei einem derartigen Tele- 
fon bleibt nur eine Hand frei, was beim Fahren zu Schwierigkeiten fiihren 
kann. Eine Losung hinsichtlich dieses Problems besteht in einem ;.m Auto 
angebrachten gesonderten Mikrophon sowie einem gesonderten Lautsprecher , 
der auf eine geeignete Lautstarke einzustellen ist und mit geeignetem Ab- 

15 stand vom Benutzer positioniert ist, so dass der Benutzer den anderen Teil- 1 
nehmer deutlich horen kann. Selbst bei diesem Design muss der Benutzer eine 
seiner Hande verwenden, um einen Anruf zu tatigen, d.h. zum WahI.en der 
Nummer der anderen Partei oder zum Reagieren auf einen eingehenden Anruf 
oder zum Beehden eines Anruf s- 

20 . .■ - 

• Damit sich ein Telef onbenutzer auf das Fahren konzentrieren kann, wurden 
sogenannte Freisprechtelef one entwickelt, bei denen die Funktionen durch 
Sprache steuerbar sind. Hierbei konnen alle Telef onfunktionen durch Sprache 
gesteuert werden, wie das Ein/Ausschaiten/ Senden/Empf angen, Spr«ichlaut-r 

25 starke-Steuerung, Wahlen einer Telef onnurnmer, Antwor ten auf einen :?elefon- 
anruf, und so kann sich der Benutzer auf das Fahren konzentrieren. Der 
Fahrer muss seine Hande nicht vom Lenkrad wegriehmen und seine Augen nicht 
von der Strafie ablenken, weswegen ein Freisprechtelef on die Fahrsioherheit 
betrachtlich erhdht. 

30 '" ' ' 

Ein Nachteil in Zusammenhang mit einem sprachgesteuerten Telef on besteht 
darin, dass die Spracherkennung nicht vollig perfekt ist. Durch di« Fahr- 
zeugumgebung hervorgeruf ene Hintergrundgerausche sind stark, weswegen die 
Spracherkennung schwieriger 1st. Es erfolgten etiiche Anstrengungeri zum 
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Vermarkten der Spracherkennungsf ahigkeit in Zusammenhang mit ' Mobiltelefo- 
nen, jedoch war angesichts der Unzuver lassigkeit von sprachges teuerten 
Telefonen das Interesse von Benutzern ah solchen unbedeutend. Die Erken- 
nungsgenauigkeit von in der Technik bekannten Spracherkennungseinrirhtungen 
5 ist nicht sehr gut, insbesondere unter ungunstigen Bedingungen, z. B. in 
einem fahrenden Fahrzeug, in. dem die starken Hintergrundgerauscne eine 
zuverlassige Worterkennung im Wesentlichen verhindern. Fehlerhafte Erken- 
nungsauf ldsungen verursachen im Allgemeinen die groflten Unbequeml i rhkeiten 
beim Realisieren eines Benutzer-Komraunikat ions systems, da sie unerwiinschte 

10 Funktionen start en konnen, wie die Beendigung von Anrufen in deren Verlauf , 
was aus dem Gesichtspunkt des Benutzers besonders unzweckdienlich ist. Die 
ublichsten Konsequenzen fehlerhaften Sprachinterpretierung bestehen im 
Wahlen einer falschen Nummer. Aus diesem Grund sind Benut zerkommunixationen 
so konzipiert, dass durch eihe Spracherkennungseinrichtung keinerlei Erken- 

15 nungsauflosung erfolgt, wenn keine ausreichende Sicherheit hinsichtlich 
eines van Benutzer gesprochenen Itforts erzielt ist, wobei in derartigen 
Fallen der Benutzer im Allgemeinen dazu aufgefordert wird, den geiu/3erten 
Befehl zu wiederholen. 

20 Nahezu alle Spracherkennungseinrichtungen beruhen auf dem Funktibnsprinzip, 
.- dass ein von einem Benutzer gesprochenes Wort durch ein ziemlich kompli- 
ziertes Verfahren mit zuvor in den Speicher der Spracherkennungseinrichtung 
eingespeicherten Bezugswortern verglichen wird. Spracherkennungseinrichtun- 
gen berechnen im Allgemeinen eine jedem Bezugswort entsprechende Zanl, die 

25 anzeigt, in welchem Ausmafl das vom Benutzer gesprochene Wort dem Bezugswort 
ahnelt. Abschl ie/Jend erfolgt eine Erkennungsauf lbsung auf Grundlage der 
Zahlen in solcher Weise, dass fur die Auflosung dasjenige Bezugswort ge- 
wahlt wird, dem das geauBerte Wort am meisten ahnelt. Eines der bekanntes- 
teh Verfahren fiir den Vergleich zwischen einem gesprochenen Wort and den 

30 Bezugswortern ist das 'Dynamic-Time-Warping ( DTW) -Verfahren und das statlsti- 
sche Hidden-Markov-Modell(HMM) -Verfahren. 

Sowohl beim DTW- als auch beim HMM-Verf ahren wird ein unvertrautes Sprach- 
muster mit den bekannten Bezugsmustern verglichen. Beim Dynamic-Time-War- 

35 ping wird ein Sprachmuster in eine Anzahl von Rahmen unterteilt, und es 
wird der ortliche Abstand zwischen dem Sprachteil in jedem Rahmen und dem 
dem Bezugsmuster entsprechenden Sprachteil berechnet. Auf Grundlage . der auf 
diese Weise hergeleiteten ortlichen Abstande wird durch einen DTW-Algorith- 
mus nach dem minimalen Pfad zwischen dem Anfangs- und dem Endpunkt des 

40 Worts gesucht. So kann durch Dynamic-Time-Warping ein Abstand zwischen dem 
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gesprochenen Wort und den Bezugswortern erhalten werden. Beim HMM-Verf ahren 
werden Sprachmuster erzeugt, und dieser Sprachmuster-Erzeugungsschr Ltt wird 
durch ein Statusanderungsmuster gemafl dem Markov-Verf ahren struk~uriert . 
Dieses Statusanderungsmuster ist so das HMM. Spracherkennung fur die emp- 
5 fangenen Sprachmuster erfolgt nun durch Definieren der Beobachtungswahr- 
scheinlichkeit fur diese Sprachmuster unter Zuhilfenahme des HMM-Musters. 
Unter Verwendung des HMM. bei der Spracherkennung wird als erstes ein HMM— 
Muster fur jedes zu erkennende Wort, d.h. fur jedes Bezugswort, erzeugt. 
Die HMM-Muster werden in den Speicher der Spracherkennungseinrichtung ein- 

10 gespeichert.. Nachdem die Spracherkennungseinrichtung das Sprachmuster emp- 
fangen hat, wird fur jedes im Speicher gespeicherte HMM-Muster einte Beob- 
. achtungswahrscheinlichkeit berechnet, und im Ergebnis des Erkennungssprozes- 
ses wird ein Wort fiir dasjenige HMM-Muster geliefert, fur das die hochste 
Beobachtungswahrscheinlichkeit erhalten wurde. Anders gesagt, wird fiir 

15 jedes Bezugswort die Wahrscheinlichkeit berechnet, gemafl der es das vom 
Benutzer gesprochene Wort ware. Die oben genannte hochste Beobachtungswahr- 
scheinlichkeit beschreibt die Gleichheit des empfangenen Sprachmusters mit 
dem nachstkommenden HMM-Muster, d.h. dem nachstkommenden Bezugssprachmus- 
ter. 

20 ' - • ' .. •' - ; ; 

So berechnet die Spracherkennungseinrichtung bei den aktuellen Systemen 
eine best immte Zahl fiir die Bezugsworter auf Grundlage des von einen Benut- 
zer gesprochenen Worts; beim DTW-Sy stem ist die Nummer der Abstand ::wischen 
Wortern, und beim HMM-Verf ahren zeigt die Nummer die Wahrscheinlichkeit der 

25 Gleichheit der Worter an. Wenn das HMM-Verf ahren verwendet wird, wird im 
Allgemeinen fiir die Spracherkennungseinrichtungen eine vorgegebenen Schwel- 
lenwahrscheinlichkeit definiert, die das wahrscheinlichste Bezugswort er- 
reichen muss, urn eine Erkennungsauf losung zu iiefern. Ein anderer Faktor, 
der die Erkennungsauf losung beeinflusst, konnte z. B* die Differenz zwi- 

30 schen den Wahrscheinlichkeiten fiir das wahrscheinlichste Wort und das 
zweitwahrscheinlichste Wort sein; es ist zu erwarten, dass sie ausreichend 
gro/3 ist, damit eine Erkennungsauf losung erfolgen kann. Wenn eine Erken- 
nungsauf losung auf Grundlage der Erkennungswahrscheinlichkeit fiir das wahr- 
scheinlichste Wort erfolgt, soil die Irruhgswahrscheinlichkeit hochistens z. 

35 B. 6,1 betragen. Daher ist es moglich, dass dann, wenn Hintergrundgtsrausche 
stark sind, fiir ein Bezugswort im Speicher, wie das Bezugswort "1", auf 
Grundlage eines vom Benutzer geauflerten Befehls bei jedem Versuch ivB. 0,8 
als groflte Wahrscheinlichkeit beim Vergleich mit den anderen Bezugswortern 
erhalten wird. Da die Wahrscheinlichkeit unter der Sch'wel lenwahrschi^inlich- 

40 . keit von 0,9 bleibt, wird das Wort nicht akzeptiert und es kann e.rforder- 
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lich sein, dass der Benutzer den Befehl mehrfach auBern muss, bevor die 
Grenze der Erkennungswahrschei.nl ichkeit uberschritten wird und die Sprach- 
erkennungseinrichtung den Befehl akzeptiert, obwohl die Wahrschein lichkeit 
sehr dicht am Akzeptierwert gelegen haben kann. Vom Gesichtspunkt des Be- 
5 nutzers her ist dies hochst storend. Ein korrektes Erkennungsergebn Ls kann 
beim ersten Versuch unter Verwendung der aktuellen Technik ziemlich haufig 
dann erzielt werden, wenn die Geschwindigkeit eines Fahrzeugs unter 80 bis 
90 km pro Stunde liegt, abhangig von der Gerauschisolierung des Wagons und 
der Sprechweise des Benutzers. Bei hoheren Geschwindigkeiten nicnmt jedoch 

10 die Funktion der Erkennungseinrichtung sehr stark ab, und in den meisten 
Fahrzeugen arbeitet die Spracherkennungseinr ichtung bei Geschwindigkeiten 
liber 100 km pro Stunde nicht mehr ausreichend zuverlassig dafiir, dass sie 
als niitzlich angesehen werden konnte. Insbesondere bei derartigen Geschwin- 
digkeiten ist aber das Erfordernis, die Verkehrssicherheit zu erhohen, 

15 gro/ier als bei niedrigeren Geschwindigkeiten. 

Das US-Patent Nr. 4 783 803 of fenbart ein Spracherkennungssystem, das die 
akustische Ahnlichkeit zwischen einem gesprochenen Wore und einem Bezugs- 
wort sowie eine Sprachmodellbewertung auf Grundlage zuvor erkannter Worter 

20 kombiniert. Ein derartiges bekanntes System nutzt die in einem Spraehmodell 
enthaltene A-priori-Wahrschein 1 ichkeit , dass ein gegebenes Wort vom Benut- 
zer gesprochen wird, wenn ein zuvor erkanntes Wort Oder mehr ere vorgegeben 
sind. Das US-Patent Nr. 5 003 603 of fenbart ein Spracherkennungssystem, bei 
dem dann, wenn ein gesprochenes Wort gemaA Vergleichskriterien nicht mit- 

2 5 tels irgendeines Bezugsworts erkannt werden kann, das System den Henutzer 
dazu auffordert, die Auflerung zu wiederholen. 

GemaB einer ersten Erscheinungsf orm der Erf indung ist eine Spracherken- 
: nungsvorrichtung mit folgendem geschaffen: einer Vergleichseinrichtung zum 

30 Vergleichen eines von einem Benutzer gesprochenen ersten Worts mit mindes- 
tens einem vorbestimmten Bezugswort; einer Berechnungseinr ichtung :;um Be- 
rechnen eines Werts, der der Ahnlichkeit zwischen dem vom Benutzer cjesproc- 
henen ersten Wort und dem mihdestens einen vorbestimmten Bezugswort ent- 
spricht; einer Auswahleinrichtung zum Auswahlen des Werts, der der groflten 

35 Wahrscheinlichkeit entspricht; dadurch gekennzeichnet , dass . die Berech- 
nungseinrichtung so ausgebildet ist, dass sie den ausgewahlten Wert beim 
. Berechnen eines neuen Werts entsprechend der Ahnlichkeit zwischen einem 
zweiten vom Benutzer gesprochenen Wort und dem mindestens einen . Benugswort 
verwendet, wenn der ausgewahlte Wert einem vorbestimmten Kriterium genUgt. 
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Gemafl einer zweiten Erscheinungsf orra der Erfindung ist ein Sprarherken- 
nungsverf ahren geschaffen, das folgendes umfasst: Vergleichen eiies von 
einem Benut2er gesprochenen ersten Worts mit mindestens einem vorbe st immten 
Bezugswort; Berechnen eines Werts, der der Ahnlichkeit zwischen dem vom 
5 Benutzer gesprochenen ersten Wort und dem mindestens einen vorbe:3t immten 
Bezugswort entspricht; Auswahlen des Werts, der der grdflten Ahnlichkeit 
entspricht; dadurch gekennzeichnet , dass der ausgewahlte Wert dazu verwen- 
det wird, einen neuen Wert entsprechend der Ahnlichkeit zwischen einem vom 
Benutzer gesprochenen zweiten Wort und dem mindestens einen Bezugswort zu 
10 berechnen, wenn der ausgewahlte Wert einem vorbestimmten Kriterium geniigt. 

pie Erfindung hat den Vorteil, dass eine zuver lass igere Erkennung von Wor- 
tern selbst dann moglich ist, wenn die Ahnlichkeit zwischen gesp:rochenen 
Wortern und Bezugswortern nicht hoch ist • 

15 : 

Bei einer Ausf uhrungsf orm gema/3 der ersten und zweiten Erscheinungs::orm der 
Erfindung ist mehr als ein Bezugswort vorhanden. Dies hat den Vorteil, dass 
der Benutzer bei einer die Erfindung enthaltenden Steuerungsvorrichtung, 
die iiber mehr als eine sprachgesteuerte Funktion verfugt, Sprachsheuerung 
20 verwenden kann. 

Bei einer bevorzugten Ausf uhrungsf orm der ersten und zweiten Erschoinungs- 
form der Erfindung ist das vom Benutzer gesprochene zweite Wort dasselbe 
wie das von ihm gesprochene erste Wort. Dies hat den Vorteil, da?»s eine 
25 zweite Berechnuhg nur dann ausgefuhrt wird, wenn das zweite gesprochene 
Wort mit dem ersten gesprochenen Wort ubereinstimmtj urn dadurch ein«» unno- 
tige Verzogerung bei der Erkennung gesprochener Worter zu vermeiden. 

Bei einem alternativen Ausfiihrungsbeispiel der ersten und zweiten Ausfuh- 
30 rungsform der Erfindung wird der ausgewahlte Wert nur dann beim Berechnen 
eines neuen Werts verwendet, wenn das vom Benutzer gesprochene zweite Wort 
dasselbe wie das vom ihm gesprochene erste Wort ist. Dies hat den Vorteil, 
dass unnotige Berechnungen vermieden sind und dass ein voriger Wert nur 
dazu verwendet wird, die Erkennung eines wiederholt vom Benutzer geisproche- 
35 nen Worts zu unterstutzen. 

Vorzugsweise besteht das vorbestimmte Kriterium darin, dass der ausgewahlte 
Wert kleiner als ein vorbest immter Schwellenwert ist oder alternativ das 
vorbestimmte Kriterium darin besteht, dass die Differenz zwischen dem aus- 
40 gewahlten Wert und einem anderen Wert, der der Ahnlichkeit zwischen dem 
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ersten vom Benutzer gesprochenen Wort und einem anderen Bezugsworrt ent- 
spricht, kleiner als ein vorbestimmter Schwellenwert ist. Dies hat den 
Vorteil, dass weitere AuBerungen und Berechnungen nur dann erf orderlich 
sind, wenn ein gesprochenes Wort nicht zuverlassig erkannt werden kann oder 
5 wenn ein gesprochenes Wort zwei verschiedenen Bezugswortern ahnlich ist. 

In geeigneter Weise wird eine Wiederholung des vom Benutzer gesprochenen 
ersten Worts dann . angef ordert , wenn der ausgewahlte Wert das vorbest immte 
Kriterium erfiillt, was dem Benutzer deutlich anzeigt, dass ein gesprochenes 
10 Wort nicht erkannt wurde und dass er das Wort wiederholen muss. 

Beim erf indungsgemaflen Verfahren berechnet eine Spracherkennungseinrichtung 
die Erkennungswahrscheinlichkeiten fur Bezugswdrter , und sie erzeuqt eine 
Erkennungsauf losung, wenn eine der Wahrscheinlichkeiten einen vorbefitimmten 

15 Schwellenwert uberschreitet ; andernfalls wird der Benutzer dazu aufgef or- 
dert, das Wort erneut zu sprechen, und dafiir erfolgt eine Erkennungsauf lo- 
sung, wenn die Wahrscheinlichkeit fur eines der Bezugswbrter kleiner als 
ein vorbestimmter Schwellenwert ist ; andernfalls wird eine neue Wahrschein- 
lichkeit unter Verwendung der von der Spracherkennungseinrichtung borechne- 

20 ten aktuellen Wahrscheinlichkeit und einer Wahrscheinl ichkeit , die einmal 
oder mehrere Male zuvor berechnet wurde, unter der Bedingung berechnet, 
dass es sich urn Wahrscheinlichkeiten uber ein und dasselbe Bezugswort han- 
delt, wobei eine Erkennungsauf losung dann erzeugt wird, wenn die Wahr- 
scheinlichkeit einen vorbestimmten Schwellenwert uberschreitet. Solange der 

25 vorbestimmte Schwellenwert nicht durch die durch die Spracherkennungsein- 
richtung berechnete Wahrscheinlichkeit uberschr itten ist, wird die berech- 
oete Wahrscheinlichkeit in den Speicher eingespeichert , der Benutzer wird 
dazu aufgefordert, das Wort erneut zu sprechen, und der im Speicher gespei- 
cherte Wert wird zusammen mit der folgenden Wahrscheinlichkeit / den fol- 

30 genden Wahrscheinlichkeiten verwendet, wie sie fur dasselbe Wort von der 
Spracherkennungseinrichtung berechnet wurden, urn eine neue Wahrscheinlich^- 
keit zu berechnen, die auf Grundlage der Wahrscheinlichkeiten zu berechnen 
ist (um eine Erkennungsauf losung zu erzeugen, wenn, unter Berucksicht igung 
der vorangehenden Wahrscheinlichkeiten, die Schwellenwahrschein.'. ichkeit 

35 erreicht ist). Danach wird, wenn die Spracherkennungseinrichtung e:.ne den 
Schwellenwert uberschreitende Wahrscheinlichkeit berechnet, oder dieser 
unter Berucksichtigung der vorangehenden Wahrscheinlichkeiten . erreicht 
wird, der Speicher riickgesetzt. Auch dann, wenn eine Wiederholung eines 
vorigen Worts fraglich ist, wird der Speicher vor einer Erkennungsauf losung 

40 riickgesetzt. Der Speicher wird auch dann riickgesetzt, wenn die Spannung in 
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der Vorrichtung eingeschaltet wird und wenn ein Vorgang unterbrochen wird. 

Die Erf indung wird unten nur beispielhaf t und unter Bezugnahme auf die 
beigefiigten Zeichnuhgen im einzelnen beschrieben. 

5 

Fig. 1 zeigt ein Prinzipf lussdiagramm fur die beim Verfahren auszuf iahrenden 
Schritte; und 

Fig, 2 zeigt ein Blockdiagramm zur Realisierung des Verfahrens in einem 

- < 

10 System, in dem Spracherkennung verwendet wird. 

In Fig, 1 ist das erf indungsgemafie Spracherkennungsverf ahren kLargisstellt . 
Das Verfahren stent nicht in unmittelbarem Zusammenhang mit dem inter nen, 
bei der Spracherkennung verwendeten Verfahren der - Spracherkerinungseinrich- 

15 tung, sondern unter Verwendung des Verfahrens wird das Erzielen einer Er- 
kennungsauf losung beschleunigt und die Erkennungsgenauigkeit wird verbes- 
sert, ohne dass den Eigenschaf ten der vorliegenden Spracherkennungsiainrich- 
tung Aufmerksamkeit zu schenken ware. Wenn die Spannung in der Einirichtung 
eingeschaltet wird 1; wird der Speicher ruckgesetzt und es wird e:rwartet, ' 

20 dass eine Aui3erung 2 von einem Benutzer erfolgt, wodurch die Spraoherken-. 
; nungseinrichtung Wahrscheinlichkeiten fiir alle Bezugsworter und als Erken- 
nungsergebnis berechnet 2 , und sie das Bezugswort lief ert, das die groflte 
Wahrscheinlichkeit besitzt, d.h. dasjenige Bezugswort, das dem vom Benutzer 
gesprochenen Wort am meisten ahnelt. Wenn die Wahrscheinlichkeit 'fur das 

25 Bezugswort einen vorbestimmten Schwellenwert oder den Schwellenwert fur die 
Wahrscheinlichkeiten des wahrscheinlichsten und des zweitwahrschein.Lichsten 
Worts, die im vorliegenden Zusammenhang geme ins am als Schwellenwerte bei 
der Spracherkennung bezeichnet werden, nicht uberschreitet , wird horausge- 
funden 3, ob das untersuchte Wort eine Wiederholung des vorangegangenen 

30 Worts ist. Wenn eine Wiederholung eines derartigen vorangegangenen Worts 
nicht zur Debatte steht, wird der Speicher ruckgesetzt 4a. Wenn der Benut- 
zer das Wort nicht ofter als einmal gesprochen hat, enthalt der Speicher 
wahrend der ersten Bereehnungsrunde nicht s, wodurch auch keine neue Wahr- 
scheinlichkeit berechnet wird sondern eine Erkennungsauf losung erzejgt wird 

35 6a, und wobei, wenn keine zuverlassige Erkennung vorgenomraen werden kann 
6b, die durch die Spracherkennungseinr ichtung berechnete WahrscheinLichkeit 
in den Speicher eingespeichert wird 7 und auf eine anschl ieflende Auflerung 
des Benutzers gewartet wird. Wenn dagegen das Wort eine Wiederholung des 
vorigen Worts ist, wird eine neue Wahrscheinlichkeit berechnet 5, wdzu bei 

40 der Berechhung der Wahrscheinlichkeit ein im Speicher gespeicherter voran- 
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gegangener Erkennungsversuch genutzt wird, und auf Grundlage derseloen wird 
eine Erkennungsauf Ldsung erzeugt 6a , 6b. Wenn die neue Wahrschein L ichkeit 
dadurch erhalten wird, dass die Berechnungen 5 den Schwellenwert uber- 
schreiten, d.h., dass eine zuverlassige Erkennung erfolgen kann 6o, wird 
5 der Speicher ruckgesetzt 4b. und es wird erwartet, dass eine ansch Lieflende 
Aufterung 2 vom Benutzer und ein von der Spracherkennungseinrichtung erhal- 
tenes 2 Erkennungsergebnis auftreten usw. Wenn die neue Wahrscheinlichkeit 
unter dem Schwellenwert liegt, so dass keine zuverlassige Erkennung erfol- 
gen kann, wird die neue Wahrscheinlichkeit in den Speicher 1 eingesoeichert 

ID und es wird erwartet, dass eine anschlieflende Auflerung 2 des B<?nutzers 
erfolgt usw. Wenn eine der Funktionen unterbrochen wird, wird der Speicher 
ruckgesetzt, so dass nichts in ihm verbleibt, was eine nach der U.iterbre- 
chung zu startende neue Erkennung storen wurde: Das erf indungsgema;3e Ver- 
fahren kann auch so realisiert werden, dass die Erkennungsauf ldsung 6a, 6b 

15 erzeugt wird, bevor herausgef unden wird 3, ob eine Wiederholung des voran- 
gegangenen Worts zur Debatte stent oder nicht. Wenn der von der Spracher- 
kennungseinrichtung fur das wiederholte Wort berechnete Wert nun den einge- 
stellten Schwellenwert iiberschreitet , muss keine derartige Berechnung einer 
neuen Wahrscheinlichkeit erfolgen, bei der die bei vorangegangenen Erken- 

20 nungsversuchen berechneten Werte berucksichtigt wiirden. 

Urn den Rechenprozess auszufuhren, konnen mehrere Berechnungsablauf e entwi- 
ckelt werden, bei deren Verwendung eine genauere Wahrscheinlichkei" unter 
Verwendung der vorangegangenen Wahrscheinlichkeit erzielt werden. kann. 

2 5 Jedoch ist die nutzlichste Formel die Berechnungsf ormel fur bedingte Wahr- 
scheinlichkeit. Um den bei diesem Verfahren verwendeten Berechnungsablauf 
zu demonstrieren, wird unten die Verwendung einer Berechnung mit bedingter 
Wahrscheinlichkeit im einzelnen und in Zusammenhang mit dem erf indungsgema- 
Ben Verfahren beschrieben. Es wird eine Situation untersucht, bei der ein 

30 Benutzer als erstes ein Wort A und dann ein Wort B spricht, nachdem er vom 
System dazu aufgefordert wurde, das Wort zu wiederholen. Eine Spracherken- 
nungseinrichtung berechhet z. B. die folgenden Wahrscheinlichkeiten fiir die 
beiden Worter A und B: 

35 P(A=1) = 0,7 (Wahrscheinlichkeit, dass A "eins" war) 

P(A=2) = 0,3 (Wahrscheinlichkeit, dass A "zwei M war) 

P(B=1) = 0,8 (Wahrscheinlichkeit, dass B "eins" war) 

P(B=1) = 0,2 (Wahrscheinlichkeit, dass B "zwei" war) 



40 



Wenn als Schwellenwert fiir die Erkennungsauf ldsung 0,9 eingestellt ist, 
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kann betreffend jede Erkennung keine Erkennungsauf losung erzeugt werden. 
Wenn bekannt ist, dass der Benutzer beide Male dasselbe Wort spraci, kann 
die Zuverlassigkeit der Erkennung dadurch erhoht werden, dass zum B.^rechnen 
einer neuen Wahrscheinlichkeit die Wahrscheinlichkeit genutzt wi:rd, die 
5 hinsichtlich vorangegangener und aktueller Erkennungen durch ein«»n oder 
mehrerer dieser Vorgange berechnet wurde. Dies kann z. B. durch eine Be- 
rechnung mit bedingter Wahrscheinlichkeit wie folgt erf olgen: ' 

P(B=1/A=B) = [P(B=1 und A=B) / P(A=B) J = 
10 = [P(B=1 und v ((A=l und B=l) oder (A=2 und B=2)))] / P(A=*B) 
= [P((A=1 und B=l) oder (B=l und A=2 und B=2 ) ) / P(A=B)] 
= (P(A=1 und B=l) / P((A=1 und B=l) oder (A=2 und B=2))) 
= [0,7 * 0,8 / 0,7 * 0,8 + 0,3 * 0,2] = 0,56/0,62 = 0,903 

15 Die obige Berechnung, durch die eine Wahrscheinlichkeit fur das Detail 
berechnet wurde, dass das zweite Wort, d.h. B, "eins" ist, wobei dies Bedin- 
gung besteht, dass A mit B ubereinstimmt , anders gesagt, dass das erste 
Wort dasselbe wie das zweite Wort ist, fuhrt zu einer neuen Wahrscheinlich- 
keit, die im vprliegenden Fall den Schwellenwert uberschreitet > no dass 

20 eine Erkennungsauf losung erzeugt werden kann. Selbst wenn die neues Wahr- 
scheinlichkeit den Schwellenwert nicht uberschreitet, ist sie jedoch besser 
als die durch die Spracherkennungseinrichtung berechnete individuel :.e Wahr- 
scheinlichkeit, und auf diese Art wird im Speicher eine neue Wahrschein- 
lichkeit: gespeichert und bei der Berechnung einer folgenden, neuen Wahr- 

25 scheinlichkeit zusammen mit einer folgenden, von der Spracherkennungsein- 
richtung berechneten Wahrscheinlichkeit verwendet. Es zeigt sich auch, dass 
der Unterschied zum zweitwahrscheinlichsten Wort zunimmt. Die obige Formel 
kann dadurch vereinfacht werden, dass nur der Zahler an Stelle des Nenners 
verwendet wird und mit einer geeigneten Konstanten Y multipliziert wird: 

30 • - 

P(B=xfA=B) = Y*P<A=x und B=x) = Y*P(A=x)*P(B=x) 

Demgema/3 wird die Gesamtwahrscheinlichkeit fur jedes Bezugswort r wie folgt 
. erhalten, wenn der Benutzer ein Wort N mal ausspricht: 

35 

P(r) = Y*P(r,i)*P(r,2)*...*P(r,N), 



wobei P(r,l) die erste Auflerung des Bezugsworts r ist, P(r,2) die zweite 
Auflerung ist und N die letzte Aufierung desselben ist. Beim obigen Beispiel 
40 • wurde eine Wahrscheinlichkeit fiir ein gegebenes Bezugswort berechnet. In 
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Ubereinstimmung mit den Schwellenkriterien bei der Spracherkennung nimmt 
die Differenz zwischen den Wahrscheinlichkeiten zweier B zugswortar (fur 
das Bezugswort, das von der Spracherkennungseinrichtung die hochsts Wahr- 
scheiniichkeit und die zweithochste Wahrscheinlichkeit erhielt) automatisch 
5 zu, weswegen die Erkennungszuverlassigkeit verbessert ist. Es ist einfach, 
die obigen Rechenverf ahren zu verwenden, wenn in der Spracherkenn jngsein- 
richtung das HMM-Verf ahren verwendet wird, da es in solchen Fallen fiir 
jedes Bezugswort die Wahrscheinlichkeit des vom Benutzer gesprochen*?n Worts 
berechnet. Wenn das DTW-Verf ahren verwendet wird, ist die Berechnung nicht 
10 ganz so unkompliziert , da nun fiir Bezugswdrter in der Spracherkennungsein- 
richtung keine Wahrscheinlichkeit berechnet wird, sondern ein Abstand oder 
ein Standard dafur, wie weit das gesprochene Wort von jedem Bezugswort 
entfernt ist. 

« 

15 Daher muss zum Verbessern der Erkennungszuverlassigkeit beim Verf ahren, bei 
dem vorige Wahrscheinlichkeiten genutzt werden, der Standard oder der Ab- 
stand als erstes in eine Wahrscheinlichkeit umgewandelt werden. BeLm DTW- 
Verf ahren ist es so moglich, mittels einer Zahl D(r,i) zu beschreiben, in 
welchem Ausmafi jedes Bezugswort r einem gesprochenen Wort innerhalb einer 

20 Wiederholungszeit i ahnelt. Hierbei kann eine Wahrscheinlichkeit wii» folgt 
unter Zuhilfenahme einer Funktion f(), z- B. einer nichtl inearen Funktion, 
aus der Zahl berechnet werden: 



D(r) = f(D<r,l), D(r,2),..., D(r,N)) 



25 



Alternativ kann ein Schatzwert fiir die Wahrscheinlichkeit eines Bezugsworts 
aus dem durch einen DTW-Algorithmus gelieferten Ergebnis mittels eines 
Schatzwerts g{) berechnet werden, wodurch das von der Spracherkennungsein- 
richtung berechnete Ergebnis in eine Wahrscheinlichkeit umgewandelt werden 
30 kann, und die Wahrscheinlichkeit einer i:n-ten Wiederholung eines Bezugs- 
worts r ist. nun P(r,i) = g(D(r,i)), wobei die Zahl P(r,i) entsprechend dem 
Verf ahren beim Berechnen einer neuen Wahrscheinlichkeit verwendet werden 
kann, wie oben beschrieben. 

35 In Fig. 2 ist ein Weg zum Realisieren des erf ihdungsgemafien Verfahrens in 
einem Spracherkennungssystem dargestellt . Durch dieses Verfahren kann die 
Erkennungsgenauigkeit des Spracherkennungssy stems verbessert werden, in dem 
die Spracherkennungseinrichtung 8 Erkennungsergebnisse, . d.h. Erkennungs- 
wahrscheinlichkeiten, iiefert, die an die Verarbeitungseinheit 9 fiir Erken- 

40 nungsergebnisse geliefert werden. Jedes Erkennungsergebnis enthaLt eine 
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Liste der zu erkennenden Worter, wobei fiir jedes eine Wahrscheinlichkeit 
(Oder ein anderer Qualitatsf aktor ) berechnet wurde, die beschreibt, in 
welchem Ausmafl ein vom Benutzer gesprochenes Wort Ahnlichkeit mit jedem 
Bezugswort hat. Die Bezugsworter konnen vorab im internen Bezugsworterspei- 
5 cher der Spracherkennungseinrichtung 8 eingespeichert sein oder die Sprach- 
erkennungseinrichtung ist mit der Fahigkeit versehen, vom Benutzer gespro- 
qhene Worter zu M lernen" . Jedoch hat dieses Detail dazu, wie und wiinn Be- 
zugsworter in den Bezugsworterspeicher eingespeichert werden, keine Bedeu- 
tung hinsichtlich der Erfindung, und die Spracherkennungseinrichtung 8 muss 

10 keinen Bezugsworterspeicher aufweisen. Wenn ein Wort nicht mit ausrtJ ichend- 
er Zuverlassigkeit erkannt werden kann, fordert die Benutzerkommunikations- 
einrichtung 11 den Benutzer dazu auf, das Wort zu wiederholen. In einem 
solchen Fall liefert die Benutzerkommunikationseinrichtung 11 Information 
an den Verarbeitungsblock 9 f tir Verarbeitungsergebnisse dahingehend, ob ein 

15 Wort vom Benutzer zu wiederholen ist oder nicht. Wenn die Benutzerkommuni- 
kationseinrichtung 11 die Verarbeitungseinheit 9 dariiber informiert, dass 
eine Wiederholung eines Worts zu erwarten ist, wird auf die in Verbindung 
mit dem vorangegangenen Erkennungsversuch gespeicherten Daten aus dc;m Spei- 
cher 11 zugegriffen und fiir die Bezugsworter werden neue Wahrscheinl.ichkei- 

20 ten fiir die Bezugsworter gemafl der Erfindung auf eine Weise berechnet, die 
die vorangegangenen Werte beriicksichtigt . Wenn keine ausreichend zuverlas- 
sige Erkennung, selbst auf Grundlage der neuen Wahrscheinlichkeiten, erfol- 
gen kann, werden diese neuen, genau berechneten Wahrscheinlichkeiten den- 
noch in den Speicher 10 eingespeichert. Nachdem eine erfolgreiche Erkennung 

25 erfolgte, wird der Speicher 10 ruckgesetzt. Der Speicher wird auch dann 
riickgesetzt, wenn Daten von der Benutzer kommunikat ionseinrichtung dahinge- 
hend an den Verarbeitungsblock 9 geliefert werden, dass das naVchste einge- 
gebene Wort nicht dasselbe wie das vorige ist. In der Praxis kann das Sys- 
tem dergestalt sein, dass der Verarbeitungsblock 9, der Speicher 10 und der 

30 v Benutzer kommunikat ionsblock 11 einen Teil desselben Prozessors bilden, 
d-h. , dass sie mittels eines Prozessors realisiert sind. Der Prozesijor kann 
ein solcher sein, der speziell fiir das Spracherkennungssystem ausgebildet 
ist, oder es kann der Hauptprozessor fiir ein Funktelefon sein. Typischer- 
weise verfugt auch die Spracherkennungseinrichtung 9 uber einen Sicjnalpro- 

35 zessor. 

Unter Zuhilfenahme der Erfindung kann die Spracherkennungsgenauigke;.t ver- 
bessert werden, obwohl die Grundf unktipn der Spracherkennungseinrrichtung 
selbst nicht verbessert ist. Wenn die Erkennungsgenauigkeit verbessert ist, 
40 ist die Entscheidungsf indung betreffend Erkennung beschleuhigt und es kann 
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ein benutzerf reundlicheres Freisprechtelef on realisiert werden . Die. Erfin- 
dung ist nicht auf die Formel des Beispiels, wie in Fig. 1 dargestellt, 
beschrankt, sondern es konnen verschiedene Funktionen auch mit anderer 
Reihenfolge ausgefiihrt werden. 

Angesichts der vorstehenden Beschreibung ist es fiir den Fachmann srsicht- 
lich, dass innerhalb des Schutzumf angs der durch die beigefiigten AnsprUche 
definierten Erfindung verschiedene Modif izierungen erfolgen konnen. 



10 



15 



20- 



25 



30 
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Patentaospriiche 

1. Spracherkennungsvorrichtung mit: 

- einer Vergleichseinrichtung zum Vergleichen eines von einem Uenutzer 
gesprochenen ersten Worts mit mindestens einem vorbestimmten Bezugswort; 

5 - einer Berechnungseinrichtung zum Berechnen eines Werts, der der Ahnlich- 
keit zwischen dem vom Benutzer gesprochenen ersten Wort und dem mindestens 
einen vorbestimmten Bezugswort entspricht; 

- einer Auswahleinrichtung zum Auswahlen des Werts r der der groBten Wahr- 
scheinlichkeit entspricht; 

10 dadurch gekennzeichnet , dass die Berechnungseinrichtung so ausgebilclet ist, 
dass sie den ausgewahlten Wert beim Berechnen eines neuen Werts «mtspre- 
chend der Ahnlichkeit zwischen einem zweiten vom Benutzer gesprochenen Wort 
und dem mindestens einen Bezugswort verwendet, wenn der ausgewahlte Wert 
einem vorbestimmten Kriterium geniigt. 

15 • '*' 

2. Spracherkennungsvorrichtung nach Anspruch 1 mit mehr als einem vorbe- 
stimmten Bezugswort. 

3. Spracherkennungsvorrichtung nach Anspruch 1 Oder Anspruch 2, bei der 
20 das vom Benutzer gesprochene zweite Wort dasselbe wife das vom Benutzer 

gesprochene erste Wort ist. 

4. Spracherkennungsvorrichtung nach einem der vorstehenden An sprue: he, bei 
der die Berechnungseinrichtung den ausgewahlten Wert beim Berechnen eines 

25 neuen Werts nur dann verwendet, wenn das vom Benutzer gesprochene zweite 
Wort dasselbe wie das vom Benutzer gesprochene erste Wort ist. 

5. Spracherkennungsvorrichtung nach einem der vorstehenden Anspruche, bei 
der das vorbestimrote Kriterium dasjenige ist, dass der ausgewahlte Wert 

30 kleiner als ein vorbestinunter Schwellenwert ist. 

6. Spracherkennungsvorrichtung nach einem der Anspruche 2 bis 4, bei der 
das vorbestimmte Kriterium darin besteht, dass die Differenz zwischen dem 
ausgewahlten Wert und einem anderen Wert entsprechend der Ahnlichkeit zwi- 

35 scheh dem vom Benutzer gesprochenen ersten Wort und einem anderen Bezugs- 
wort kleiner als ein vorbestimmter Schwellenwert ist. 



40 



7. Spracherkennungsvorrichtung nach Anspruch 5 oder Anspruch 6, bei der. 
die Wiederholung des vom Benutzer gesprochenen ersten Worts angofordert 
wird, wenn der ausgewahlte Wert dem vorbestimmten Kriterium geniigt. 



• r • • • • « 
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8. Spracherkennungsvorrichtung nach Anspruch 5 oder Anspruch 6, bei der 
dann, wenn der ausgewahlte Wert dera vorbest itnmten Kriterium nicht genugt, 
die Vorrichtung riickgesetzt wird und sie auf eine weitere Auflerung . durch 

5 den Benutzer wartet. 

9. Spracherkennungsvorrichtung nach einem der vorstehenden Ansprtiohe, bei 
der der Wert und der neue Wert jeweilige Wahrscheinl ichkeiten dafiir sind, 
dass das erste gesprochene Wort und das zweite gesprochene Wort jewoils dem 

10 ' mindestens einen vorbestimmten Bezugswort entsprechen. 

10. Spracherkennungsvorrichtung nach Anspruch 9, bei der der Wert und der 
neue Wert unter Verwendung einer Berechnung mit bedingter Wahrschoinlich- 
keit berechnet werden. 

15 4 

11. Spracherkennungsvorrichtung nach einera der vorstehenden Ansprttehe, mit 
einer Speichereinrichtung (10) zuro Einspeichern des ausgewahlten Werts und 
des neuen Werts. 

20 12. Spracherkennungsverf ahren, das folgendes aufweist: 

- Vergleichen eines von einem Benutzer gesprochenen ersten Worts mit min- 
destens einem vorbest immten Bezugswort; 

- Berechnen eines Werts, der der Ahnlichkeit zwischen dem vom Ilenutzer 
gesprochenen ersten Wort und dem mindestens einen vorbestimmten Be::ugswort 

2 5 entspricht; 

Auswahlen des Werts, der der groflten Ahnlichkeit entspricht? 
dadurch gekennzeichnet , dass der ausgewahlte Wert dazu verwendet: wird, 
einen neuen Wert entsprechend der Ahnlichkeit zwischen einem vom Benutzer 
gesprochenen zweiten Wort und dem mindestens einen Bezugswort zu berechnen, 
30 wenn der ausgewahlte Wert einem vorbestimmten Kriterium genugt. 

13. Verf ahren nach Anspruch 12, bei dem raehr als ein vorbestimmtes Bezugs- 
wort existiert. 

35 14. Verf ahren nach Anspruch 12, bei dem das vom Benutzer gesprochene zwei- 
te Wort dasselbe wie das vom Benutzer gesprochene erste Wort ist. 

15. Verfahreh nach Anspruch 12, bei dem der ausgewahlte Wert nur beim 
Berechnen eines neuen Werts verwendet wird, wenn das vom Benutzer gespro- 
40 chene zweite Wort dasselbe wie das vom Benutzer gesprochene erste Wort ist. 



16. Verfahren nach einem der Anspruche 12 bis 15, bei dem das vorbrastimmte 
Kriterium dasj nige 1st, dass der ausgewahlte Wert kleiner als ein vorbe- 
stimmter Schwellenwert ist. 



17. Verfahren nach einem der Anspruche 13 bis 15, bei dem das vorb«astimmte 
Kriterium darin besteht, dass die Differenz zwischen dem ausgewahltian Wert 
und einem anderen Wert entsprechend der Ahnlichkeit zwischen dem vom Benut- 
zer gesprochenen ersten Wort und einem anderen Bezugswort kleiner als ein 
vorbestimmter Schwellenwert ist. 

18. Verfahren nach Anspruch 16 oder Anspruch 17, bei dem die Wiedorholung 
des vom Benutzer gesprochenen ersten Worts angefordert wird, wenn dor aus- 
gewahlte Wert dem vorbestimmten Kriterium genugt. 

19. Verfahren nach Anspruch 16 oder Anspruch 17, bei dem dann, wcsnn der 
ausgewahlte Wert dem vorbestimmten Kriterium nicht genugt, die Voririchtung 
riickgesetzt wird und sie auf eine weitere AuBerung durch den Benutzor war- 
tet. .'■ 

20. Verfahren nach einem der vorstehenden Anspruche, bei dem der Wort und 
der neue Wert jeweilige Wahrscheinlichkeiten dafur sind, dass dass erste 
gesprochene Wort. und das zweite gesprochene Wort jeweils dem mindestens 
einen vorbestimmten Bezugswort entsprechen. 



21. Verfahren nach Anspruch 20, bei dem der Wert und der neue Werli unter 
Verwendung einer Berechnung mit bedingter Wahrscheinlichkeit borechnet 
werden. 
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